21 research outputs found

    A Description of the French Nucleus VP Using Co-occurrence Constraints

    Get PDF
    International audienceThis article presents a fully operational formal grammar of the French nucleus verb phrase. The grammar is implemented in NooJ, with a focus on constraint specification. We take the Properties formalism of (Bès, 1999) as a reference and show how requirement and exclusion properties may be implemented in NooJ, introducing a new type of constraint

    Un analyseur de surface non déterministe pour le français

    Get PDF
    International audienceRule-based chunkers are characterized by a two-tier process: part-of-speech disambiguation, and pattern matching. Considering that these two stages introduce some redundancy in the linguistic description and a dilution of heuristics over the different processes, we propose to define a chunker which parses a non-disambiguated input, and produces all possible analysis in terms of chunks. The parser, implemented with NooJ, relies on the definition of extended patterns, which annotate sequences of chunks. The results obtained on an approx. 22500 word corpus, with almost 100% recall, demonstrate the feasability of the approach, and signal which ambiguities should be further studied in order to improve precision.Les analyseurs syntaxiques de surface à base de règles se caractérisent par un processus en deux temps: désambiguïsation lexicale, puis reconnaissance de patrons. Considérant que ces deux étapes introduisent une certaine redondance dans la description linguistique et une dilution des heuristiques dans les différents processus, nous proposons de définir un analyseur de surface qui fonctionne sur une entrée non désambiguïsée et produise l'ensemble des analyses possibles en termes de syntagmes noyau (chunks). L'analyseur, implanté avec NooJ, repose sur la définition de patrons étendus qui annotent des séquences de syntagmes noyau. Les résultats obtenus sur un corpus de développement d'environ 22 500 mots, avec un rappel proche de 100%, montrent la faisabilité de l'approche et signalent quelques points d'ambiguïté à étudier plus particulièrement pour améliorer la précision

    Insertions et interprétation des expressions pronominales

    Get PDF
    International audienceIn the context of a pronoun resolution system for French, we propose a constraint to reduce the number of possible antecedents for a pronoun: an expression in an insertion cannot be the antecedent of a pronominal expression which is outside this insertion. The proposed constraint can be seen as a special case of the constraints formulated at a higher level in veins theory. However, we define insertions syntactically, which allows the effective implementation of our hypothesis. Evaluation of the proposed constraint on corpus results in a success rate greater than 98 %.Dans le contexte d'un système d'interprétation automatique des expressions pronominales en français, nous proposons une contrainte permettant de réduire le nombre d'antécédents potentiels pour un pronom: une expression qui figure dans une insertion ne peut être antécédent d'une expression pronominale qui figure en dehors de cette insertion. La contrainte proposée peut être vue comme un cas particulier des contraintes formulées à un niveau plus général par la théorie des veines. Cependant, les insertions sont ici définies syntaxiquement, ce qui rend notre hypothèse effectivement implantable. L'évaluation sur corpus de notre contrainte sur les insertions donne un taux de succès supérieur à 98 %

    Le DM, a French Dictionary for NooJ

    Get PDF
    International audienceThis paper presents the DM, a new dictionary for French. Freely available resources are selectively used to obtain lexical lemmas, from which morphological grammars generate about 538 000 baseforms. Evaluation of the DM on corpus shows that it stands the comparison with the previous NooJ delaf dictionary

    Note de lecture sur Philippe Blache, Les Grammaires de propriétés

    Get PDF
    Hermès Science Publications, 2001, 228 pages, ISBN : 2-7462-0236-0.International audienceThis article comments on the "Property Grammars" of Philippe Blache and compares them with the original Properties formalism of Gabriel G. Bès, showing that arguments developed by Blache on direct interpretation, characterization and non-generativity are not decisive

    Un dictionnaire et une grammaire de composés français

    Get PDF
    21ème Traitement Automatique des Langues Naturelles, Marseille, 2014L'article présente deux ressources pour le TAL, distribuées sous licence GPL : un dictionnaire de mots composés français et une grammaire NooJ spécifiant un sous-ensemble des schémas de composés

    Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français

    Get PDF
    English abstract not availableLe travail présenté dans la thèse a été réalisé dans le cadre d'une Convention industrielle de formation par la recherche en entreprise (CIFRE) au Centre de recherche européen de Xerox (XRCE), le laboratoire universitaire associé étant le Groupe de recherche dans les industries de la langue (GRIL) de l'université Blaise-Pascal à Clermont-Ferrand.La thèse est organisée en deux parties: nous présentons, dans une première partie, une étude générale des « phénomènes de reprises », et, dans une deuxième partie, l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne. La thèse a en outre pour objectif d'illustrer une méthode de travail qui exige que les descriptions linguistiques que nous proposerons puissent être et soient évaluées, c'est-à-dire confrontées à la réalité observable des textes.La première partie de la thèse a pour double objectif de présenter une étude générale des phénomènes de reprise et d'illustrer une méthodologie, qui met l'accent sur la nécessité de tester les hypothèses par rapport au réel observable. Le premier chapitre est consacré à la délimitation des phénomènes de reprise. Il y a reprise lorsqu'entre deux expressions d'un même texte existe un lien sémantique caractérisé en ayant recours à une relation d'identité. La notion de reprise recouvre la relation de coréférence, mais également d'autres relations. Elle recouvre également certains phénomènes d'anaphore, mais, contrairement à cette dernière, elle ne met pas en jeu une caractérisation du phénomène par la forme des expressions. La caractérisation des différents types de liens de reprise fait l'objet du chapitre 2.Ces deux chapitres ont pour vocation de spécifier un système d'organisation des données linguistiques: on définit les objets qui devront être observés, et comment ils devront l'être. Étant donné un texte quelconque et les définitions des chapitres 1 et 2, un observateur quelconque doit pouvoir spécifier quels sont les liens de reprise à l'intérieur de ce texte. Les chapitres 3 et 4 abordent la problématique de l'évaluation. Le chapitre 3 est plus particulièrement dédié à la définition de critères et de mesures d'évaluation pour les phénomènes relevant de la coréférence au sens strict. Des critères et mesures d'évaluation pour la coréférence existaient préalablement à cette thèse; nous en proposons de nouveaux, en les justifiant.Pour attester l'existence de conditions d'évaluation externes à un système d'hypothèses, il est nécessaire de montrer que l'observation des phénomènes visés est inter-subjective. Le chapitre 4 présente les résultats d'une expérience visant à évaluer cette inter-subjectivité sur l'observation des différentes relations à distance qui peuvent être observées entre les expressions d'un même texte. Cinq étudiants du GRIL ont noté les relations qu'ils observaient sur trois articles de journaux, observations que nous comparons avec les observations que nous-mêmes avions faites sur ces textes. L'existence des conditions d'évaluation dépendra du degré d'accord entre les observations faites par les étudiants et nos propres observations. Si la première partie de la thèse donne une vue générale des phénomènes de reprise, la seconde partie a un caractère plus applicatif: on y décrit l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne dans les textes en français.Le chapitre 5 décrit notre objectif pour cette seconde partie de la thèse, l'environnement de travail et la méthodologie adoptée.Le chapitre 6 présente les approches possibles du problème que nous voulons résoudre. On recense d'abord les différentes sources d'information qui peuvent entrer en jeu dans les mécanismes d'interprétation des expressions pronominales (syntaxe, sémantique, etc.), puis on décrit quelques-uns des principaux systèmes d'interprétation automatique des pronoms, par rapport auxquels nous mettons notre propre système en perspective.Le chapitre 7 décrit les données sur lesquelles seront exprimées nos hypothèses sur l'interprétation des pronoms. Il s'agit essentiellement d'une représentation de la structure syntaxique des phrases, telle que produite par l'analyseur syntaxique développé au Centre de recherche de Xerox (XRCE).Nos hypothèses sur l'interprétation des expressions pronominales retenues ont été implantées dans le formalisme de l'outil XIP, développé à XRCE. La description de ce formalisme fait l'objet du chapitre 8.Notre système d'hypothèses sur l'interprétation des expressions pronominales est présenté plus spécifiquement dans les chapitres 9 (organisation globale du système), 10 et 11 (description précise des hypothèses). Il est ensuite évalué dans le chapitre suivant. Le système donne une interprétation correcte pour 75 % des expressions pronominales visées, évaluation effectuée sur un ensemble de 417 expressions apparaissant dans un recueil d'articles de presse traitant du domaine de la finance

    An Evaluation of Inter-Annotator Agreement in the Observation of Anaphoric and Referential Relations

    Get PDF
    International audienceWhen proposing a description of the data he observes, the linguist must make sure that his observations may be also regularly made by other persons. In this paper, we introduce a typology of anaphoric and referential relations and an experiment which aims at assessing that this typology is operational. Given three newspaper articles, five students were asked to identify anaphoric and/or referential relations between expressions and referents. This inter-subjectivity test confirms results already obtained: coreference is an operational notion, but the perspicuity of other relations is not obvious

    Specifying Properties of a Language with Regular Expressions

    Get PDF
    International audienceThis article presents a translation of the Property formalism of [2] into the XFST regular expression formalism [6]. Besides offering at no cost a platform to use Properties in natural language processing, this operation allows us to clarify the interpretation of the Property formalism, which may be interpreted as strictly limited either to regular languages or to context-free languages, depending on the definition of the objects Properties apply to

    Non Deterministic Chunking

    Get PDF
    9 pagesInternational audienceThis paper presents a non deterministic chunker for French. It is implemented in NooJ and operates on untagged text. The grammar is designed so as to consist only in a description of chunk composition; no other contextual information is used to disambiguate the chunks. The problem of the massive over-generation of chunks in an All matches pattern matching mode is dealt with using the NooJ +UNAMB feature. This feature is systematically used on left-hand side function words and as such expresses a fundamental property of French chunks. The resulting chunker obtains almost perfect recall and 73.52% precision on the development corpus and provides a tool to explore different levels of ambiguity
    corecore